Extracting multi-annotated speech data (Extraction de données orales multi-annotées) [in French]

نویسندگان

Brigitte Bigi

Tatsuya Watanabe

چکیده

Résumé. Cet article aborde le problème de l’extraction de données orales multi-annotées : nous proposons une solution intermédiaire, entre d’une part les systèmes de requêtages très évolués mais qui nécessitent des données structurées, d’autre part les données (multi-)annotées des utilisateurs qui sont hétérogènes. Notre proposition s’appuie sur 2 fonctions principales : une fonction booléenne pour filtrer sur le contenu, et une fonction de relation qui implémente l’algèbre de Allen. Le principal avantage de cette approche réside dans sa généricité : le fonctionnement sera identique que les annotations proviennent de Praat, Transcriber, Elan ou tout autre logiciel d’annotation. De plus, deux niveaux d’utilisation ont été développés : une interface graphique qui ne nécessite aucune compétence ou connaissance spécifique de la part de l’utilisateur, et un interrogation par scripts en langage Python. L’approche a été implémentée dans le logiciel SPPAS, distribué sous licence GPL.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

BL-Database: A French audiovisual database for speech driven lip animation systems

The lack of publicly available annotated databases is a major limitation to research advances in speech processing. We describe in this paper an audiovisual speech database which is being made available to the research community. Our database, called BL-database (Blue Lips-database), consists of 238 utterances spoken by 17 speakers. The recordings have been performed during two sessions. The da...

متن کامل

Large-scale acoustic and prosodic investigations of french. (Analyses acoustiques et prosodiques du français à partir de grandes masses de données orales)

ii This thesis was partially financed by RTRA-DIGITEO, Région Île-de-France, under the projet AMADEO (Apprentissage à partir de grandes masses de données orales, 2007-01D), and by the OSEO Quaero program.

متن کامل

Inférence semi-automatique et interactive de règles sans vérité terrain

Dealing with non annotated documents for the design of a document recognition system is not an easy task. In general, statistical methods cannot learn without an annotated ground truth, unlike syntactical methods. However their ability to deal with non annotated data comes from the fact that the description is manually made by a user. The adaptation to a new kind of document is then tedious as ...

متن کامل

Automatically identifying implicit discourse relations using annotated data and raw corpora (Identification automatique des relations discursives « implicites » à partir de données annotées et de corpus bruts) [in French]

Automatically identifying implicit discourse relations using annotated data and raw corpora This paper presents a system for identifying « implicit » discourse relations (that is, relations that are not marked by a discourse connective). Given the little amount of available annotated data for this task, our system also resorts to additional automatically labeled data wherein unambiguous connect...

متن کامل

Recommandation de requêtes dans les bases de données multidimensionnelles annotées

RÉSUMÉ. La problématique traitée dans cet article consiste à personnaliser les systèmes OLAP annotés. Nous proposons de modéliser les données au sein d'une constellation supportant à la fois des annotations et des préférences. Les annotations sont utilisées pour représenter « l’expertise » immatérielle du décideur tandis que les préférences permettent d'individualiser les données durant les man...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2014

Extracting multi-annotated speech data (Extraction de données orales multi-annotées) [in French]

نویسندگان

چکیده

منابع مشابه

BL-Database: A French audiovisual database for speech driven lip animation systems

Large-scale acoustic and prosodic investigations of french. (Analyses acoustiques et prosodiques du français à partir de grandes masses de données orales)

Inférence semi-automatique et interactive de règles sans vérité terrain

Automatically identifying implicit discourse relations using annotated data and raw corpora (Identification automatique des relations discursives « implicites » à partir de données annotées et de corpus bruts) [in French]

Recommandation de requêtes dans les bases de données multidimensionnelles annotées

عنوان ژورنال:

اشتراک گذاری